Coincidencia Adjunta Regularizada por Entropía para RL Fuera de Línea RL fuera de línea con coincidencia adjunta y regularización por entropía para optimizar políticas de aprendizaje por refuerzo con datos históricos. 2026-05-09 · 2 min